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摘要 : 【 目的 】 利 用 用 户 标签 及 关系 网 络 , 为 用 户 推荐 潜在 的 相似 用 户 。[ 方法 】 通 过 探究 社会 化 标注 系统 中 标 
签 、 关 系 网 络 所 表征 的 用 户 长 短期 兴趣 特征 , 综合 用 户 标签 及 关注 关系 , 利用 多 维 尺 度 法 构建 用 户 聚 类 模型 , 根 
据 用 户 聚 类 结果 进行 相似 用 户 推荐 , 并 以 “ 微 博 ?为 例 对 模型 进行 实证 。[ 结果 】 实 验 结果 表明 ,基于 标签 和 关系 
网 络 的 用 户 聚 类 模型 能 够 有 效 地 结合 用 户 长 得 期 兴趣 特征 ,挖掘 潜在 相似 用 户 ， 聚 类 及 推荐 效果 较 好 。[ 局 限 】 
样本 数据 集 具 有 局 限 性 ,不 能 完全 涵盖 用 户 兴趣 领域 , 仅 从 一 个 领域 验证 了 模型 的 准确 性 与 有 效 性 。[ 结论 ] 通 
过 对 用 户 标签 及 关系 网 络 挖 气 用 户 长 短期 兴趣 , 构建 的 基于 用 户 静 态 标 签 与 动态 关系 网 络 的 用 户 推 荐 模型 ， 对 


个 性 化 用 户 推荐 效果 有 较 好 的 提升 。 
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1 3 引 

社会 化 标注 又 叫 协同 标注 、 大 众 分 类 等 ,是 指 由 
网 络 用 户 自发 地 定义 一 组 标签 描述 某 类 信息 ， 并 选 
用 高 频 标签 作为 该 类 信息 类 名 的 一 种 网 络 信息 分 类 
方法 四。 随 着 信息 技术 的 快速 发 展 ,国内 外 出 现 了 大 
批 允 许 用 户 自行 创建 标签 的 社会 化 标注 系统 ， 如 
YouTube 、 微 博 等 外。 但 由 于 用 户 创建 标签 时 的 随意 
性 产生 的 问题 , 如 标签 歧义 、 模 糊 、 宛 余 等 ， 降 低 了 
内 容 标 引 和 检索 的 有 效 性 申 。 因 此 ， 如 何 提 高 社会 化 
标注 系统 信息 推荐 的 准确 性 , 解决 用 户 获 取信 息 困 
难 成 为 研究 和 关注 的 重点 外 。 目 前 , 主流 的 解决 方式 
是 利用 聚 类 算法 根据 用 户 信息 对 用 户 进行 相似 度 计 
算 ， 实 现 用 户 聚 类 ,再 根据 用 户 聚 类 结果 在 同 簇 用 户 
之 间 进 行 信息 推荐 号 ， 即 用 户 聚 类 结果 是 社会 化 标注 
系统 信息 推荐 的 依据 。 

(1) 社会 化 标注 系统 的 推荐 研究 主要 集中 于 根据 
用 户 “ 标 签 -资源 关系 对 相似 用 户 进行 发 现 , 极 少将 
用 户 关系 网 络 考虑 其 中 ,如 易 明 等 四 和 王 向 前 等 中 通 
过 VSM 将 标签 表示 成 Web 资源 向 量 的 形式 , 进而 计 


了 中 


算 标签 间 的 相似 度 , 利用 DBSCAN 实现 标签 的 聚 类 ; 
Gemmell 等 8 同样 使 用 VSM 构建 标签 与 Web 资源 间 
的 标注 关系 ,利用 层次 聚 类 获取 标签 的 聚 类 结果 并 将 
其 应 用 到 标签 的 个 性 化 推荐 中 。 

(2) 在 社会 化 标注 领域 中 多 维 尺 度 分 析 (MDS) 方 
法 在 国内 主要 应 用 于 通过 科学 图 谱 以 发 现 词 间 关系 ， 
还 未 将 其 应 用 到 相似 度 计算 中 ,如 卢 小 宾 等 上 借助 
MDS 和 聚 类 可 视 化 分 析 方 法 构建 科学 图 谱 ， 对 社会 
化 标签 研究 领域 中 的 热点 词汇 进行 识别 ,揭示 这 些 
热点 关键 词 之 间 的 亲 玻 远 近 关 系 ; 紫 彦 六 通过 SPSS 
软件 的 聚 类 分 析 以 及 多 维 尺度 分 析 , 人 研究 关键 词 之 
间 的 内 在 联系 , 探究 知识 管理 领域 中 的 研究 热点 。 
外 已 经 将 MDS 应 用 于 相似 度 计 算 领域 , 如 Masnick 
等 nA 利用 MDS 创建 职业 相似 性 的 空间 表示 , 用 于 衡 
量 学 生 对 职业 的 态度 ， 以 鼓励 学 生 从 事 科 研 领域 的 
相关 工作 。 

因此 , 本 文 提 出 将 标签 和 关系 网 络 两 者 结合 以 控 
掘 潜在 相似 用 户 , 并 运用 MDS 方法 对 表征 用 户 长 期 
静态 兴趣 的 标签 和 用 户 短期 动态 兴趣 的 关系 网 络 进行 
和 矩阵 降 维 以 计算 相似 度 , 通过 聚 类 寻找 出 兴趣 和 关注 
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相似 度 最 高 的 用 户 群 体 ， 从 而 实现 用 户 的 个 性 化 推 
穴 。 同 时 由 于 用 户 的 兴趣 随 着 时 间 不 断 变 化 , 不 同时 


成 是 在 现实 有 联系 的 基础 上 加 以 个 人 兴趣 为 导向 的 自 
组 织 拓扑 体系 。 对 用 户 进 行 个 性 化 推荐 的 核心 和 关键 


间 用 户 兴 趣 也 会 有 所 不 同 , 但 标签 的 变化 周期 较 长 ， 
具有 一 定 的 稳定 性 , 而 关系 网 络 变化 周期 短 , 具有 动 
态 性 。 模 型 通过 不 断 更 新 用 户 的 关注 变化 信息 以 修正 
推荐 结果 ， 有 效 地 解决 了 推荐 系统 的 数据 稀疏 性 ,但 
无 法 兼顾 用 户 长 短期 兴趣 及 推荐 准确 性 等 问题 。 经 过 
实证 研究 后 发 现 将 用 户 关注 加 入 到 用 户 聚 类 指标 中 ， 
不 仅 大 大 增强 了 用 户 聚 类 的 准确 度 ， 而 且 能 够 揭示 标 
签 的 语义 关联 。 


2 ”模型 描述 及 数据 预 处 理 


本 文选 取 国 内 社会 标注 网 站 的 微 博 数 据 作为 实证 
研究 的 对 象 , 微 博 是 一 种 通过 关注 机 制 分 享 简短 实时 
兰 息 的 广播 式 的 社交 网 络 平台 "…。 微 博 用 户 关系 的 形 


就 是 挖掘 用 户 个 人 兴趣 和 俩 好 ,为 了 能 够 准确 地 挖掘 
微 博 中 存在 的 不 同 兴 趣 用 户 群体 ， 可 以 通过 构建 完善 
的 用 户 兴 趣 发 现 模型 ,在 计算 出 用 户 间 兴趣 相似 度 的 
基础 上 进行 聚 类 , 在 聚 类 篮 群 的 基础 上 对 用 户 进行 精 
准 的 个 性 化 推荐 。 
2.1 用 户 聚 类 模型 总 体 框架 

微 博 是 以 用 户 兴 趣 和 关注 关系 为 导向 的 用 户 关 系 
结构 和 组 织 方式 , 本文 整合 这 两 种 因素 ,在 传统 基于 
静态 标签 构建 用 户 兴趣 模型 的 基础 上 将 用 户 动态 关注 
关系 这 一 指标 引入 其 中 并 构建 用 户 推 荐 模型 , 模型 包 
含 两 个 子 模型 : 用 户 标 签 模型 与 用 户 关注 模型 。 从 而 
计算 出 稳定 的 相似 用 户 群 体 进行 聚 类 ， 提 高 了 用 户 个 
性 化 推荐 的 效率 和 准确 率 , 如 图 1 所 示 。 
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模型 自动 从 微 博 中 收集 用 户 相关 信息 存 人 数据 库 
中 ,对 用 户 标签 信息 .关注 信息 进行 信息 提取 , 并 依据 
模型 进行 数据 预 处 理 ， 分 别 生 成 用 户 标签 共 现 矩阵 及 
用 户 关 注 对 象 共 现 和 矩阵 ,根据 共 现 矩阵 分 别 计 算 基于 
标签 和 关注 关系 的 用 户 间距 离 矩 阵 ， 再 通过 MDS 降 
维 将 用 户 标签 及 关注 关系 的 复杂 距离 整合 形成 二 维 数 
据 ， 进 而 对 用 户 进 行 聚 类 , 实现 用 户 推荐 。 同 时 , 在 较 
短 周 期 内 不 断 更 新 用 户 关注 信息 , 不 断 修 正 用 户 聚 类 
结果 。 这 样 聚 类 得 到 的 结果 才能 够 更 加 准确 地 反映 当 
前 的 现实 状况 。 


2.2 ”实验 数据 

(D 数据 获取 

实证 数据 来 自 新 浪 微 博 用 户 数据 ,笔者 于 2016 
年 11 月 5 日 利用 Python 疏 虫 从 微 博 选取 一 名 用 户 
(http://weibo.com/u/3660593213?from=myfollow_all) 
开始 逐步 扩散 抓 取 用 户 信息 ， 共 抓 取 1 075 名 微 博 
用 户 ,其 中 共有 341 名 用 户 编辑 了 1 905 个 标签 ， 表 
1 显示 了 部 分 用 户 数据 。 数 据 集中 的 字段 分 别 为 : 
用 户 ID、 用 户 昵 称 、 微 博 数 、 关 注 数 、 粉 丝 数 、 标 
签 、 关 注 列表 。 
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表 1 部 分 微 博 用 户 数据 


用 户 ID 用 户 了 昵称 微 博 数 关注 数 粉丝 数 标签 关注 列表 

3694919990 各 国美 食 学 起 来 YOU 102 390 118 986725 新闻 趣事 , … 微 博 奇 茧 1857414070, ... 
5590998575 不 懂 老 分 806 41 532 314 ”外貌 协会 , ... 星 座 运势 3725773862, ... 
3323442082 视觉 痪 100 402 238 2478 436 “教育 就 业 , ... 时 尚 3193150774, ... 
2155768741 贵州 旅游 广播 3 667 248 316 615 ”FM972, ... 快 乐 2760471402, .…. 
3524931687 走 走 客 云南 旅游 271 137 60 ”云南 旅游 , .自驾 旅游 3273935392, ... 
1990226474 昆 宣 发 布 28 722 1 023 621 450 ”春城 艺术 , ... 春 城 人 物 1266286555, ... 
3175953062 萌 萌 萌 能 55 9 759 时 尚 , ... 星 座 命理 1642909335, ... 


(2) 数据 预 处 理 要 对 某 些 用 户 标签 进行 中 文 分 词 。 本 文 利用 RR 语言 基于 
人 删除 不 完整 数据 ICTCLAS 中 文 分 词 系统 对 经 过 步骤 四 处 理 的 标签 进行 分 词 。 
由 于 用 户 数据 是 通过 爬虫 自动 抓 取 的 ， 因 此 存在 一 些 该 系统 在 中 文 分 词 中 准确 度 较 高 ,具有 新 词 识别 、 添 


抓 取 不 完整 的 现象 ， 如 用 户 缺 少 关注 列表 等 。 去除 不 完整 记 加 新 词 等 功能 。 能 够 自动 识别 新 词 ， 用户 也 可 以 根据 需要 
录 后 共有 1 039 名 用 户 , 其 中 共有 332 名 用 户 编辑 了 1 871 ”添加 新 词 ， 以 提高 分 词 的 准确 性 , 例如 对 “科幻 电影 "、“ 爱 


个 标签 。 情 电影 "等 继续 分 词 将 干扰 后 续 计 算 的 词 定义 为 新 词 ， 使 
人 @) 中 文 分 词 其 不 再 进一步 拆 分 ， 提 高 了 样本 分 词 准确 性 。 经 过 分 词 总 


标签 编辑 的 随意 性 使 得 标签 的 规范 性 存在 一 定 问题 ， 共 可 以 得 到 1 500 个 分 词 ， 词 频 总 数 为 3 510， 部 分 结果 如 
为 了 更 加 确认 单词 的 意思 以 加 强 它 对 兴趣 的 表征 意义 ， 需 表 2 所 示 。 


表 2 标签 分 词 词 频 统计 


标签 旅游 美食 时 尚 生活 新 闻 后 电影 音乐 笑 
词 频 57 48 40 38 34 31 31 29 28 
权重 w/% 1.6239 1.3675 1.1396 1.0826 0.9687 0.8832 0.8832 0.8262 0.7977 
@ 去 停 用 词 通过 停 用 词 表 予以 去 除 。 利 用 及 语言 进行 停 用 词 去 除 
经 过 分 词 后 的 标签 中 有 一 部 分 是 没有 意义 的 ， 如 阿 、 共 得 到 1 281 个 分 词 ， 词 频 总 数 为 2 801， 部 分 结果 如 表 3 


座 、 一 定 、 后 、 有 、 笑 等 。 这 些 停 用 词 对 研究 的 关系 不 大 ， 所 示 。 


表 3 标签 去 停 用 词 词 频 统计 


标签 旅游 匡 俘 时 尚 生活 新 闻 影 音乐 娱乐 搞笑 

词 频 57 48 40 38 34 31 29 27 26 
权重 w/% 2.035 1.7137 1.4281 1.3567 1.2139 1.1067 1.0353 0.9639 0.9282 

图 语义 映射 林 》， 利 用 及 语言 计算 标签 间 的 语义 相似 度 ， 以 达到 标 


经 过 以 上 处 理 后 的 部 分 标签 还 存在 标签 语义 问题 ， 签 规范 化 的 目的 ,提升 其 后 分 析 的 准确 性 ， 部 分 结果 
如 旅游 和 旅行 、 信 息 与 资讯 等 ,本文 根 据 《 同 义 词 词 如 表 4 所 示 。 


表 4 标签 语义 映射 词 频 统计 


标签 旅游 美食 搞笑 音乐 时 尚 生活 新 闻 电影 娱乐 
词 频 80 48 48 42 40 38 34 31 27 
权重 w/% 2.8633 1.718 1.718 1.5032 1.4316 1.3601 1.2527 1.1095 0.9664 
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3 ”基于 用 户 标签 及 关注 的 推荐 模型 


3.1 ”用户 标签 模型 

首先 根据 用 户 标签 信息 , 将 用 户 标 签 转换 成 向 量 
并 形成 用 户 标签 矩阵 ,根据 两 个 用 户 的 标签 分 词 后 相 
同 的 词语 越 多 , 则 两 个 用 户 样 本 距离 越 近 的 原理 , 通 
过 距离 计算 得 到 基于 标签 的 用 户 间 的 距离 , 为 后 续 研 
究 做 准备 。 
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(1) 向 量 表示 

选取 预 处 理 后 标签 词 频 大 于 2 的 标签 ( 共 387 个 ) 
作为 标签 集 L， 对 用 户 分 词 后 的 标签 进行 向 量化 表 
示 。 数 据 集 D 中 共 332 名 用 户 分 别 将 分 词 后 的 标签 
与 工 中 的 标签 进行 匹配 , 若 存在 即 记 为 1, 不 存在 则 
为 0, 构建 敌阵 ， 部 分 数据 如 表 5 所 示 。 第 一 列 为 用 
户 , 每 名 用 户 以 “U+ID” 的 形式 加 以 区 分 ; 第 一 行为 
用 户 标签 。 


表 5 用 户 标签 矩阵 
J 旅游 美 廊 搞笑 音乐 时 尚 生活 新 闻 电影 娱乐 

U5107361689 1 0 0 0 0 0 1 0 0 
U1662055430 0 0 0 1 0 0 0 1 1 
U1654603903 1 1 0 0 1 0 0 1 1 
U1692712653 1 0 0 1 0 0 0 0 1 
U1651891204 1 0 于 0 0 
U3524931687 0 1 0 0 0 1 1 0 0 
U2040810221 1 1 0 0 1 0 1 0 0 
U1215144691 1 1 0 1 1 0 0 1 0 
U2684123023 0 1 0 1 1 0 0 1 0 

(2) 用 户 间距 离 矩 阵 n 

i 辫 r 9 04] 汽 用 户 dy 一 G) 
对 表 5 中 的 矩阵 做 用 户 间距 离 的 计算 “， 设 用 户 Mm + na 


问 量 为 : 

x =(6(,D,6(2,D,, OmD)) ,i=1,2,N (1) 

其 中 , N 为 样本 用 户 数量 , m 为 标签 集 工 中 标签 , / 
表示 第 m 个 标签 下 的 值 。 

sn) = ee A 
0,， 表示 用 户 i 不 存在 标签 m 

设 有 两 个 用 户 x 和 x%, 若 6,(m,1)=6;(m,1)=1, 则 
称 这 两 个 用 户 在 第 m 个 标签 上 1-1 配对 ; 车 
6.(m,1)=6;(m,7)=0，, 则 称 这 两 个 用 户 在 第 m 个 标签 
上 0-0 配对 ; 车 6,(m,1) 二 56;(m,1)， 则 称 这 两 个 用 户 在 
第 m 个 标签 上 不 配对 。 记 nn 为 xy 和 忆 在 m 个 标签 中 
1-1 配对 总 数 , no 为 x 入 在 m 个 标签 中 0-0 配对 总 数 ， 
12 为 不 配对 总 数 , 则 有 : notnitnz=m， 用户 x 入 之 间 
的 距离 定义 为 : 


根据 公式 (3) 利 用 R 语言 求 得 所 有 用 户 间 的 距离 ， 
部 分 数据 如 表 6 所 示 。 

通过 表 6 可 以 看 出 不 同 用 户 间 的 距离 有 所 不 同 ， 
dj 值 越 大 说 明 两 用 户 间距 离 越 大 ， 两 者 标签 相似 度 越 
低 ; 相反 , 必 值 越 小 说 明 两 用 户 间距 离 越 小 ,两 者 标签 
相似 程度 越 高 。 但 标签 仅仅 能 代表 用 户 相 对 静态 的 特 
征 , 不 能 及 时 表征 用 户 的 动态 兴趣 ， 因 此 本 文 提出 在 
此 基础 上 构建 用 户 关注 模型 。 
3.2 ”用 户 关注 模型 

首先 根据 用 户 关注 信息 , 选取 少量 用 户 探究 用 户 
之 间 的 关注 关系 , 进而 将 用 户 关注 转换 成 向 量 并 形成 
用 户 关注 矩阵 , 根据 两 个 用 户 相同 的 关注 用 户 越 多 ， 
则 两 个 用 户 样 本 距离 越 近 的 原理 , 通过 距离 计算 得 到 
基于 标签 的 用 户 间 的 距离 ,为 后 续 研 究 做 准备 。 
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表 6 基于 标签 的 用 户 间 距离 矩阵 

dy Ul U80 二 U160 U161 再 U240 本 U332 
Ul 0 0.875 0.777778 0.818182 0.9375 0.909091 
U2 0.9 a 0.9 0.666667 0.5 es 0.75 ee 0.75 
US80 0.875 a 0 0.777778 0.818182 0.9375 a 0.8 
Ul160 0.777778 0.777778 i 0 0.5 ba 0.888889 i 0.75 
U1l61 0.818182 0.818182 oe 0.5 0 a 0.8 0.833333 
U240 0.9375 0.9375 0.888889 0.8 Sua 0 0.777778 
U332 0.909091 i 0.8 a 0.75 0.833333 0.777778 a 0 


(1) 用 户 共 同 关注 关系 挖 气 
为 了 探究 用 户 之 间 的 关注 是 否 存在 关系 ,从 全 部 
332 名 用 户 数据 中 随机 选取 15 名 样本 用 户 的 关注 列 
表 , 15 名 用 户 关 注 数 据 如 表 7 所 示 。 
表 7 15 名 用 户 关 注 列表 


连 线 表明 两 个 中 心 用 户 间 有 共同 关注 的 对 象 , 正 是 由 
于 不 同 用 户 间 存在 共同 关注 的 对 象 , 因此 用 户 节点 数 
为 1 929, 即 15 名 用 户 共同 关注 了 259 名 其 他 用 户 , 同 
时 颜色 越 相 近 的 用 户 群 则 中 心 用 户 间 共同 关注 的 用 户 
越 多 。 根据 对 15 名 样本 用 户 关系 的 验证 ,可 以 得 出 全 


同 ] 记 ， 关注 列表 


U3694919990 5186027114, 5182575519... 
U3948635268 1642630543, 5982981128... 
U3323442082 5186027114, 3440325930... 
U2155768741 3766659924, 3752852352... 
U3524931687 2997829562, 5611200000... 
U1990226474 5878659096, 5768117490... 
U1108476625 5991719510, 2781627392... 
U3175953062 2705706381, 3003417253... 
U2912473701 5357651574, 2415848337... 
U1288915263 3937348351, 1289945134... 
U2029728883 5785953533, 3174322363... 
U5177961014 5796731205, 1999607273... 
U2206498342 2703907413, 5465835912... 
U3101945993 5980283108, 5980023345... 
U5721022666 5581785513, 2850809427... 
每 名 用 户 只 要 关注 一 个 其 他 用 户 , 则 与 该 用 户 构 


成 关注 关系 ,15 名 用 户 共 关注 2 188 名 用 户 ， 即 得 到 
2 188 个 关注 关系 。 通 过 Gephi 软件 对 用 户 间 的 关系 进 
行 挖掘 中， 以 证 明基 于 用 户 关注 关系 聚 类 的 可 行 性 ， 
如 图 2 所 示 。 

图 2 中 每 个 用 户 群 的 中 心 点 代表 不 同 的 中 心 用 户 ， 
发 散 的 点 代表 其 关注 的 用 户 , 可 以 看 出 许多 中 心 用 户 
关注 的 用 户 有 较 大 的 重合 部 分 ， 即 不 同 用 户 群 之 间 的 
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部 用 户 之 间 存 在 非常 密切 的 关注 联系 ,这 对 全 部 用 户 
的 关注 关系 进行 聚 类 有 重要 的 意义 。 


大 
图 2 用 户 关注 图 

(2) 向 量 表示 

将 数据 集 D 中 共 332 名 用 户 的 关注 列表 进行 整理 ， 
共有 关注 26 958 个, 删除 重复 关注 $ 155 个 , 剩余 关注 
21 803 个 。 将 21 803 个 关注 ID 作为 关注 集 FE 分别 将 
每 名 用 户 的 关注 列表 与 F 中 的 关注 进行 匹配 , 若 存 在 
即 记 为 1, 不 存在 则 为 0, 构建 矩 阵 。 共 332 行 用 户 行 ， 
21 803 列 关 注 列 ， 部 分 数据 如 表 8 所 示 。 


总 第 6 期 2017 年 


表 8 用 户 关注 和 矩阵 


用 户 F5186027114 F5608272697 F3756087501 F2803301701 F2516014697 
U1846588483 1 0 0 0 0 
U2542011901 1 0 0 0 0 
U1692712653 1 0 0 0 1 
U1644572034 1 0 0 0 0 
U1781457455 0 0 0 0 0 
U5107361689 0 0 0 0 0 
U2542011901 1 0 0 0 0 
U2834863492 0 1 1 1 1 
U3524931687 0 1 1 1 0 
U1203156407 0 0 1 0 0 

(3) 用 户 间 距离 矩阵 离 , 得 到 基于 关注 关系 的 用 户 间 距离 矩阵 ， 部 分 数据 


采用 与 标签 距离 计算 同样 的 算法 计算 用 户 间距 


如 表 9 所 示 。 


长 9 ”基于 关注 关系 的 用 户 间 距离 矩阵 


dy Ul U80 U160 Ul6l U240 U332 

1 0 0.963350 0.988636 0.970149 0.991701 
U2 0.994350 0.992753 1 0.993827 1 1 
U80 0.963350 0 0.994680 0.994186 0.991525 0.997076 
U160 0.988636 0.994680 0 0.995762 0.992187 0.987012 
U1l61 0.987654 0.994186 0.995762 0 0.996491 0.989664 
U240 0.970149 0.991525 0.992187 0.996491 0 0.992882 
U332 0.991701 0.997076 0.987012 0.989664 0.992882 0 


根据 表 9, qd; 越 大 说 明 两 用 户 间 关注 的 相似 度 越 
低 , qd; 越 小 说 明 两 用 户 间 关注 的 相似 度 越 高 ,同时 可 以 
部 分 值 是 1, 这 是 因为 关注 集 F 中 


看 到 距离 矩阵 中 有 
21 803 个 关注 ID 相对 于 月 
造成 数据 的 稀 玻 性 。 


将 有 


户 标签 静态 性 与 用 户 关注 的 动态 怕 


肾 类 。 利 用 多 维 尺度 分 析 法 对 多 维度 的 月 


| 


上 户 最 多 200 的 关注 过 于 


F 庞 大 ， 


此 可 以 发 现 蔡 仅 根 据 用 户 关注 对 
用 户 进行 聚 类 实现 个 性 化 推荐 还 是 有 一 定 的 缺陷 的 。 
3.3 综合 用 户 聚 类 模型 


进行 综合 
有 户 标签 与 用 


户 关注 进行 降 维 后 ,再 通过 K-means 方法 进行 用 户 


类 ,实现 用 户 的 个 怕 
(1) 向 量 表示 


化 推荐 。 


聚 


多 维 尺度 分 析 法 (MDS)"” "是 一 种 将 多 变量 的 多 
维 大 型 数据 压缩 到 低 维 空间 的 方法 , 通过 低 维 空间 的 
点 表示 变量 间 的 潜在 规律 性 联系 , 旦 通过 平面 间 的 距 
离 反 映 样本 间 的 相似 度 。MDS 具有 很 多 优点 , 包括 中 1: 


样本 数据 可 以 不 受 任何 事先 分 布 假设 的 约束 ; 能 够 处 
理 不 同类 型 的 数据 ; 能 够 将 多 变量 多 维 数据 压缩 到 低 
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维 空间 等 。 
本 文 根 据 用 户 标签 及 关注 关系 的 向 量 矩 阵 , 分 别 
对 其 进行 MDS 降 维 处 理 , 将 维 数 差别 巨大 的 标签 矩 
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(2) 用 户 聚 类 
K-means 算法 是 一 种 典型 的 适合 于 大 样本 的 Q 型 
聚 类 分 析 方 法 M9, 通过 计算 数据 集中 点 与 点 之 间 的 距 


阵 (332 行 x387 列 ) 与 关注 和 矩阵 (332 行 x21807 列 ) 信 息 整 


离 或 相似 度 进 行 聚 类 , 且 类 中 心 采 用 类 中 值 的 均值 计 


合 到 二 维 空 间 中 , 用 户 的 标签 MDS 和 关注 MDS 代表 ” 算 而 成 (1。 
用 户 在 向 量 空 间 中 的 维度 ， 其 值 为 用 户 在 向 量 空间 中 聚 类 算法 如 下 : 
的 坐标 ， 部 分 结果 如 表 10 所 示 。 四 确定 初始 类 中 心 点 。 随机 选择 上 个 元 素 作为 上 个 类 的 
Sp Ne 心 起 6 
表 10 基于 标签 及 用 户 关注 MDS 降 维 数据 + ， 
@) 初 始 类 。 将 表 5 和 表 8 中 基于 标签 和 用 户 关注 MDS 
和 和 2 降 维 数据 结合 ,计算 每 个 点 到 类 中 心 的 距离 ,将 每 个 点 聚 类 
U2612101423 0.049094493 —0.034319904 到 离 该 点 最 近 的 类 中 去 ， 得 到 天 个 粗 分 类 。 
U1846588483 0.014763293 -0.011171253 @) 更 新 类 中 心 。 计 算 各 个 粗 分 类 中 所 有 点 的 坐标 平均 
U1306794125 0.055376563 -0.034743694 值 ， 并 将 这 个 平均 值 作为 新 的 聚 类 中 心 。 
U5179732445 0.50130544 -0.036149048 图 重复 执行 步骤 四 、 步 骤 @)， 直 到 聚 类 中 心 不 再 进行 大 
U5761248787 0.50130544 -0.004671656 范围 移动 。 
U1665102492 0.04820318 -0.033469629 K-means 聚 类 作为 凝聚 式 的 聚 类 方法 ， 需要 人 为 
U2647197351 0.033225349 -0.046390183 定义 其 初始 类 中 心 点 的 个 数 ， 由 于 样本 数据 共有 332 
U5961019705 0.034749234 -0.03427661 i i a 
名 有 效用 户 , 为 不 失 一 般 性 , 模型 为 每 位 用 户 推荐 10 
U1781457455 0.043747374 -0.034271488 ie 2 
U5107361689 -0.055230674 0.114665726 名 左右 的 用 户 ， 因此 以 初始 类 中 心 全 30 为 例 进行 聚 
U2542011901 0.046136223 _0.000205833 类 , 聚 类 结果 如 图 3 所 示 。 
U2871542364 0.058303826 -0.042518174 3 中 不 同形 状 的 点 表示 不 同 的 用 户 篮 群 。 米 字 
U2834863492 0.05151389 0.004734437 型 代表 簇 中 心 所 在 的 位 置 ， 复 中 心 为 该 复 中 所 有 用 
U2624882007 -0.081583674 -0.027694683 户 坐 标的 平均 值 ， 该 中 心 点 即 代表 该 徐 , 用 以 表征 该 
U1692712653 —0.08441402 —0.004928777 簇 中 的 所 有 用 户 .可 以 看 到 ， 每 一 个 簇 中 心 周 围 都 聚 
U1644572034 0.052114494 0.095748648 a pe a 
U1651891204 0.139576002 0.029852541 集 着 该 刻 中 的 点 , 且 较 为 紧密 ,其 他 簇 中 心 有 较 为 
Et 明 电 好 这 说 明 聚 类 效果 较 好 , 但 仍 需 通 过 聚 类 
U2094215167 0.050809285 0.003524086 2 2 委 聚 类 效果 较 好 i 
二 了 十 联 并 太 和 半 人 4 二 人 育 - 且 . NA > £ 
U3524931687 -0.10443334 -0.023421971 指标 对 聚 类 效 末 进行 衡量 , 表 11 为 综合 聚 类 结 采 的 
指标 。 
0.4] 
0.3 了 米 米 
om A 
合 A 
三 0.2] x 
志 
六 当 
Em 站 “总 Ey 
米 上 Ap 
0.01 和 Br 
人 
_0.4 _02 0.0 0.2 0.4 
标签 MDS 
图 3 综合 聚 类 结果 图 
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表 11 综合 聚 类 三 30 指标 结果 


指标 值 


TOT.Withinss 篮 群 内 距离 平方 总 和 0.1385733 
Betweenss 复 群 间距 离 平方 总 和 7.615879 


如 表 11 所 示 , 簇 群 内 距离 平方 总 和 (TOT.Withinss) 
指标 表示 所 有 簇 用 户 距离 其 艇 中 心 点 距离 平方 的 和 ， 
该 指标 用 以 衡量 聚 类 结果 的 凝聚 度 ， 该 值 越 小 说 明 该 
类 用 户 越 紧 凑 ， 聚 类 效果 越 好 ; 簇 群 间 聚 类 平方 总 和 
(Betweenss) 指 标 表示 不 同 簇 群 间 徐 中 心 距离 的 平方 
和 ,该 指标 用 以 衡量 聚 类 的 分 离 度 ， 该 值 越 大 说 明 将 
类 与 类 之 间 分 离 越 明 显 ， 聚 类 效果 越 好 。 


4 模型 效果 分 析 


4.1 模型 有 效 性 评价 

(1) 评价 指标 

由 于 聚 类 分 析 是 一 种 无 监督 的 分 析 方 法 "43， 因 此 
对 上 聚 类 后 的 结构 进行 有 效 性 度量 是 非常 必要 的 。 聚 类 
有 效 性 的 度量 一 般 基于 对 簇 内 和 簇 间 两 个 方面 进行 衡 
量 , 好 的 聚 类 效果 为 具有 最 小 的 徐 内 距离 和 最 大 的 簇 
间 上 距离, 即 具 有 最 小 的 簇 内 凝聚 度 和 最 大 的 复 间 分 离 
度 [。 

当前 提出 的 有 效 性 函数 大 多 是 基于 凝聚 度 和 分 离 
度 的 组 合 进 行 改 进 。Xie-Beni 提出 使 用 Vs 函数 对 聚 
类 有 效 性 进行 测量 ”I， 如 公式 (4) 所 示 。 
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i=1 j=1 
Vs = ; 2 (4) 
n:minllv;—v,; | 


其 中 , Vs 表示 凝聚 度 和 分 离 度 的 比例 , Vs 越 小 说 
明 聚 类 效果 越 好 ; TY > lw -> 上 P 为 度量 凝聚 度 ， 


i=1 j=1 


其 值 越 小 该 类 越 紧凑 ; min ||v; =-v， 上 为 度量 分 离 度 , 其 
值 越 大 , 分 离 度 越 大 , 则 类 与 类 之 间 分 离 得 越 好 。 
本 文 将 上 述 函 数 简 化 , 如 公式 (53) 所 示 。 

_ TOT Withinss(k) (5) 

Betweenss(k) 

其 中 , 大 表示 聚 类 数 ，7Tot WWithnss( 及 表示 在 聚 类 数 
为 下, 簇 内 距离 平方 和 总 量 , 用 以 度量 凝聚 度 ; 
Betweenss 表示 在 聚 类 数 上 下 ， 复 间 聚 类 平方 和 总 量 ， 
用 以 度量 分 离 度 , Vrs 值 越 小 ， 则 聚 类 效果 越 好 。 

(2) 有 效 性 分 析 

为 了 方便 描述 , 将 本 文 提 出 的 基于 标签 与 关注 关 
系 综合 聚 类 方法 简写 为 L_F_C; 将 基于 标签 的 聚 类 方 
法 简写 成 L_C; 将 基于 关注 聚 类 的 方法 简写 成 F_C。 
使 用 本 文 提 出 的 _ Vis 函数 的 简化 函数 Vrs 函数 。 分 别 
预 设 聚 类 个 数 , 这 里 设 定 各 方法 聚 类 个 数 均 为 厂 3、 
6、 丘 9、 乒 12、 乒 15、 乒 18、 乒 21、K=24、 乒 27、 
他 30, 根据 标签 距离 算 阵 、 关 注 距 离 和 矩阵 及 综合 MDS 
和 矩阵 分 别 经 过 聚 类 并 计算 得 到 图 4。 


TB 


12.72917 


10.99826 | 9.697533 8.636529 | 7 g0795? 


0.9673007 |0.9213436 |0.8082591 |0 7417313 | 0.7183055 


聚 类 个 数 K 


一 “一 F_C 一 本 一 LC LFC 


图 4 LFC、FC 和 LC 方法 Vrs 值 对 比 
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从 图 4 可 以 看 出 本 文 提出 的 基于 标签 及 关注 关系 
综合 聚 类 (L_F_C) 在 Vrs 指标 上 远 远 优 于 单独 基于 标 
签 聚 类 方法 (L_C) 和 基于 关注 关系 聚 类 方法 FE_C。 表 
明 本 文 所 提出 的 基于 标签 及 关注 关系 聚 类 的 方法 能 
获取 较 好 的 聚 类 结果 。 主要 原因 在 于 L_F_C 方 法 将 用 
户 静 态 标 签 及 用 户 动 态 关 注 关 系 考 虑 其 中 ,大 大 增加 
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了 聚 类 的 准确 性 及 有 效 性 。 
4.2 ”实证 结果 分 析 

本 文 随机 选取 用 户 M 对 模型 进行 实证 。 用 户 M 
数据 如 表 12 所 示 。 

设置 聚 类 数 大 30 对 样本 332 名 用 户 数据 进行 聚 
类 , 聚 类 结果 如 表 13 所 示 。 


表 12 用 户 M 数据 
用 户 ID 用 户 昵称 标签 关注 列表 
2132089917 陈 秋 实 和 他 的 朋友 们 语录 ,新闻 ， 美剧, 运动 , 80 后 ， 传媒， 写作 ， 处 女 座 1803526210, 1854768217, ... 
表 13 模型 从 类 结果 
用 户 ID 用 户 昵 称 标签 关注 列表 
2132089917 ” 陈 秋 实 和 他 的 朋友 们 语录 , 新闻， 美剧， 运动, 80 后 , 传媒 ， 写作， 处女 座 1803526210, 1854768217, ... 
1448466905 ” 非 要 马甲 线 下 厨房 ,营养 学 , 健身 , 爱 ， 天蝎， 美食 , 旅游 1690832323, 1238296465, ... 
1592611830 ”演员 李 健 天 蝎 座 1870958692, 5941080382, ... 
2307134004 STAGExx 时 尚 , 美食, 音乐, 电影， 旅游 1813787671, 1812640242, ... 


3173913704 “葡萄 sasa 定制 店 
1254995044 ” 山 外 有 


旅游 ,时尚 


已 脑 ， 宅 ， 书 纪录片， 摄影， 西南 交通 大 学 ， 四川 大 学 


5646244946, 3944457562,... 
64230524, 3208535250, ... 


通过 对 用 户 M( 陈 秋 实 和 他 的 朋友 们 ) 背 景 进行 了 
解 ， 可 以 发 现 该 用 户 昵称 叫 陈 秋 实 ,是 《我 是 演说 家 》 
亚军 ,， 从事 过 演员 助理 、 配 音 员 、 记 者 、 电 视 编 导 、 
电视 主持 人 、 和 舞台 剧 、 影 视 剧 演员 等 多 种 职业 , 目前 
就 职 于 北京 隆安 律师 事务 所 ,主要 执业 方向 为 影视 娱 
乐 、 传 媒 、 互 联网 领域 的 法 律 业务 。 

因此 , 用 户 M 对 影视 、 传 媒 、 互 联网 等 行业 应 较 
为 关注 ， 从 表 12 可 以 发 现 虽然 该 用 户 在 标签 中 并 未 明 
确 标注 “娱乐 "、“ 互 联网 ”等 词语 , 但 对 用 户 M 的 推荐 
主要 是 娱乐 、 互 联网 领域 的 用 户 , 可 以 从 “演员 李 健 ”、 
“STAGExx”* 等 用 户 的 标签 中 发 现 。 同 时 从 演员 李 健 的 
标签 中 也 可 以 看 出 ,演员 李 健 标签 只 有 “天 蝎 座 ”， 但 
其 身份 为 一 名 演员 , 模型 通过 关注 关系 发 现 该 用 户 的 
潜在 特征 , 将 其 推荐 给 用 户 M。 

同时 , 经 过 对 用 户 M 关注 列表 的 分 析 , 该 用 户 在 
最 近 关 注 了 “ 训 骑 出 行 ”等 出 行 旅游 类 微 博 ， 因 此 模型 
也 将 基于 关注 关系 为 用 户 M 进行 推荐 , 根据 推荐 结果 
可 以 发 现 , 虽然 用 户 M 在 标签 中 并 未 有 “旅游 "等 词语 ， 
但 在 其 推荐 用 户 中 可 以 看 到 “ 非 要 马甲 线 ”、 
“STAGExx”、“ 和 葡萄 sasa 定制 店 ” 三 名 用 户 的 标签 中 都 
含有 “旅游 "标签 , 说 明 这 三 者 都 是 对 旅游 出 行 具有 长 


数据 分 析 与 知识 发 现 


期 兴趣 的 用 户 , 模型 对 用 户 M 关注 关系 的 更 新 发 现 他 
们 与 用 户 M 关系 , 进而 进行 推荐 。 

综 上 所 述 , 本 文 所 提出 的 模型 综合 用 户 M 标签 表 
征 的 长 期 兴趣 与 关注 表征 的 短期 兴趣 能 够 较 好 地 将 符 
合用 户 M 特征 的 其 他 用 户 作为 被 推荐 对 象 ， 推荐 给 用 
户 M。 但 是 , 由 于 样本 信息 不 完全 ,主要 集中 在 娱乐 
领域 , 因此 , 在 被 推荐 用 户 中 法 律 领域 的 用 户 并 未 出 
现 。 经 过 上 述 分 析 有 理由 相信 ， 在 数据 量 更 为 充分 的 
情况 下 , 模型 将 能 更 精确 地 综合 用 户 长 短期 兴趣 ， 推 
荐 更 为 准确 的 相似 用 户 。 


S 结 语 


本 文 将 用 户 作为 个 性 化 推荐 的 对 象 , 提出 基于 用 
户 静态 标签 与 动态 关系 网 络 的 用 户 推 荐 模型 。 通 过 用 
户 标签 及 用 户 关 系 网 络 挖掘 用 户 长 短期 兴趣 特征 , 开 
创 性 地 利用 MDS 降 维 的 方式 将 用 户 多 维 信息 全 部 包 
含 进 模 型 中 , 并 使 用 聚 类 分 析 的 方法 发 现 潜在 相似 用 
户 ， 提 高 了 用 户 聚 类 的 准确 性 与 全 面 性 及 用 户 推荐 的 
有 效 性 。 并 且 , 本 文 将 提出 的 模型 应 用 于 真实 数据 集 ， 
证 明了 模型 的 准确 性 及 推荐 的 有 效 性 。 

但 本 文 为 了 更 加 清晰 地 描述 模型 ， 并 未 从 多 个 角 
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度 进行 数据 的 采集 , 样本 数据 集 具有 局 限 性 , 不 能 完 
全 涵盖 用 户 所 有 兴趣 领域 , 仅 从 一 个 领域 验证 了 模型 
的 准确 性 与 有 效 性 。 今 后 的 研究 方向 将 扩大 数据 的 履 


盖 面 ,从 多 个 领域 节点 出 发 收集 数据 , 通过 实证 结果 


继续 完善 模型 的 相关 算法 ,以 进一步 提高 模型 的 可 行 


性 和 有 效 性 ,促使 模型 从 理论 走向 实践 。 
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Clustering and Recommending Users Based on Tags and 
了 Relation Network 


Xiong Huixiang Jiang Wuxuan 
(School of Information Management, Central China Normal University, Wuhan 430079, China) 


Abstract: [Objective] This paper proposes a new model to recommend potential similar users with the help of social 


tags and relation network. [Methods] First, we explored characteristics of the users” Short or long-term interests based 


on the social tagging system. Then, we built a user-clustering model using multidimensional scaling method with the 


tags and relationship data. Finally, we recommended similar users based on the clustering results. The proposed model 


was examined with Weibo data. [Results] We found that the new model could effectively combine the characteristics of 


the user’s interests, and then identify the potential similar ones. [Limitations] The sample data does not include 


everything on user interests. Thus, we only examined the effectiveness of the proposed model with limited data. 


[Conclusions] The user recommendation model based on static tags and dynamic relational network could improve the 


personalized recommendation services. 
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